PaddleOCR-VL 私有版本接入

特别说明

本章节内容为可选阅读，仅供参考。由于不同的硬件配置与部署环境可能存在差异，实际问题也会有所不同。建议按照本文环境及操作步骤执行，如遇异常可随时向 AI 寻求帮助，或咨询vllm官方，PIG AI 无法提供支持。

一、环境准备

1.1 硬件与系统要求

请确保你的设备满足以下最低配置：

GPU：NVIDIA GeForce RTX 4090（显存 ≥24GB）
操作系统：Ubuntu 22.04 LTS（推荐使用纯净安装）
CUDA 版本：12.8
Python 版本：3.11

CUDA 检查

可通过 nvcc --version 命令检查 CUDA 是否已正确安装。

1.2 创建 Python 虚拟环境并安装依赖

打开终端，依次执行以下命令：

# 1. 创建名为 paddle-ocr-vl 的 Conda 环境（Python 3.11）
conda create -n paddle-ocr-vl python=3.11 -y

# 2. 激活该环境
conda activate paddle-ocr-vl

# 3. 安装 PyTorch（适配 CUDA 12.8，使用阿里云镜像加速）
pip install torch torchvision torchaudio --index-url https://mirrors.aliyun.com/pypi/simple/

# 4. 安装 vLLM（支持多模态模型推理）
pip install vllm --index-url https://mirrors.aliyun.com/pypi/simple/

# 5. 设置 Hugging Face 镜像地址（国内加速下载模型）
export HF_ENDPOINT=https://hf-mirror.com

配置建议

建议将 export HF_ENDPOINT=https://hf-mirror.com 添加到 ~/.bashrc 文件中，避免每次重启终端后重新设置。

二、启动 PaddleOCR-VL 服务

在激活的 paddle-ocr-vl 环境中，运行以下命令启动模型服务：

vllm serve PaddlePaddle/PaddleOCR-VL \
    --trust-remote-code \
    --max-num-batched-tokens 16384 \
    --no-enable-prefix-caching \
    --mm-processor-cache-gb 0

参数说明

--trust-remote-code：允许加载模型仓库中的自定义代码（PaddleOCR-VL 需要）。
--max-num-batched-tokens 16384：提升批量处理能力，适应长文本或复杂布局。
--no-enable-prefix-caching：关闭前缀缓存，避免多模态输入下的兼容性问题。
--mm-processor-cache-gb 0：禁用多模态处理器缓存，节省显存。首次运行会自动从 HF-Mirror 下载模型（约数 GB），请耐心等待。默认服务地址：http://localhost:8000

三、在 PIG AI 系统中接入模型

登录 PIG AI 后台管理系统。
进入「模型管理」页面。
添加新模型，填写以下信息：
- 模型名称：PaddlePaddle/PaddleOCR-VL
- 模型类型：多模态 OCR
- 服务地址：填写上一步中 vLLM 服务的 URL（如 http://localhost:8000/v1）

四、测试识别效果

打开 PIG AI 的 AI 慧眼 功能。
上传一张包含文字的图片（如发票、表格、证件、截图等）。
建议开启“高级解析模式”（如有该选项），以获得更完整的布局还原。

输出格式说明

PaddleOCR-VL 支持输出带格式的文本（如段落、表格结构等），但不直接返回 JSON。若需结构化字段（如"发票号""金额"），需结合后处理规则或调用辅助模型进行解析。

本页目录

#PaddleOCR-VL 私有版本接入

#一、环境准备

#1.1 硬件与系统要求

#1.2 创建 Python 虚拟环境并安装依赖

#二、启动 PaddleOCR-VL 服务

#三、在 PIG AI 系统中接入模型